Mistral 发布了他们的第一个 Mamba 模型 Codestral Mamba

16 July 2024 — ai

最近 Mistral 发布了他们的第一个 Mamba 模型 Codestral-Mamba。这是一个专门用于代码生成的 Mamba2 语言模型，采用 Apache 2.0 许可证发布。

codestral mamba

该模型可免费使用、修改和分发，Mistral 希望它能为架构研究带来新的视角。Codestral Mamba 的设计得到了 Albert Gu 和 Tri Dao 的帮助。

Codestral Mamba 7B 是一款基于 Mamba2 架构的代码大语言模型 (Code LLM),并且在 Python 编码的 HumanEval 测试中取得了 75% 的成绩。此外，他们还发布了一款基于 Mistral 7B 的数学微调模型，在 MATH 测试中取得了 56.6% 的成绩，在 MMLU 测试中取得了 63.47% 的成绩。

mamba-codestral-7B 模型: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1
mathstral-7B 模型: https://huggingface.co/mistralai/mathstral-7B-v0.1

与 Transformer 模型不同，Mamba 模型具有线性时间推断的优势，并且理论上可以处理无限长度的序列。无论输入长度如何，用户都能快速获得响应。这种高效性在代码生产力应用中尤为重要——这也是我们训练该模型时注重高级代码和推理能力的原因，使其表现能够媲美最先进的基于 Transformer 的模型。

Mistral 已经测试了 Codestral Mamba 的情境检索能力，最高可达 256k Tokens。并期望它成为一个出色的本地代码助手！

您可以使用 mistral-inference SDK 部署 Codestral Mamba，SDK 基于 Mamba 的 GitHub 仓库中的参考实现。该模型也可以通过 TensorRT-LLM 部署。对于本地推断，请关注 llama.cpp 的支持。您可以从 HuggingFace 下载原始权重。

为了便于测试，他们在 la Plateforme（codestral-mamba-2407）上提供了 Codestral Mamba 以及它的 “姐姐” Codestral 22B。虽然 Codestral Mamba 采用 Apache 2.0 许可证发布，但 Codestral 22B 使用商业许可证进行自我部署或社区许可证进行测试。

重要提示：这是一个指令模型，拥有 7,285,403,648 个参数。